Next:
One-Hot Encoding
, Previous:
Wine data
, Up:
Index
Classify train data & test data
wine sample data set
import
pandas
as
pd
df_wine
=
pd
.
read_csv
(
'https://archive.ics.uci.edu/ml/'
'machine-learning-databases/wine/wine.data'
,
header
=
None
)
df_wine
.
columns
=
[
'Class label'
,
'Alchol'
,
'Malic acid'
,
'Ash'
,
'Alcalinity of ash'
,
'Magnesium'
,
'Total phenols'
,
'Flavanoids'
,
'Noneflavanoid phenols'
,
'Proanthocyanins'
,
'Color intensity'
,
'Hue'
,
'0D280/0D315 of diluted wines'
,
'Proline'
]
scikit-learn의 model_selection 모듈에 있는 train_test_split 함수를 이용한 데이터 분류
from
sklearn
.
model_selection
import
train_test_split
X
,
y
=
df_wine
.
iloc
[
:,
1
:
]
.
values
,
df_wine
.
iloc
[
:,
0
]
.
values
X_train
,
X_test
,
y_train
,
y_test
=
\
train_test_split
(
X
,
y
,
test_size
=
0.3
,
random_state
=
0
,
stratify
=
y
)
test_size=0.3 으로 지정하면 와인샘플의 30%가 X_test와 y_test로 할당된다.
stratify 매개변수를 전달하면, 훈련 데이터셋과 테스트 데이터셋에 있는 클래스 비율이 원본 데이터셋과
동일하게 유지된다.